Широкий символ
Широкий символ — термин, относящийся к программированию. Он используется для обозначения символьного типа данных, который шире традиционных 8-битных символов. Это не то же самое, что Юникод.
wchar_t
— это тип данных стандарта ANSI/ISO C (а также использующийся в других языках программирования) для представления широких символов.
Стандарт Unicode 4.0 говорит следующее:
«ANSI/ISO C оставляет семантику широких символов на усмотрение конкретной реализации»
а также
«размер типа
wchar_t
определяется компилятором, вплоть до минимальных 8 бит. Соответственно, приложения, которым требуется сохранять переносимость на различных C и C++ компиляторах, не должны использоватьwchar_t
для хранения Unicode-текста. Типwchar_t
предназначен для хранения широких символов в том виде, в котором их понимают конкретные компиляторы, и это может не соответствовать Юникоду».
В Windows API тип wchar_t именуется как WCHAR и имеет фиксированный размер 16 бит, что не позволяет кодировать весь набор символов Unicode (больше 1 миллиона). Поэтому нарушается стандарт ANSI/ISO C, который требует, чтобы символьный тип wchar_t поддерживал все представимые в системе символы в одном объекте wchar_t. По сути, в WinAPI под WCHAR подразумевается 2-байтное слово из кодировки UTF-16LE (как тип WORD), поэтому символы с кодами выше FFFF16 кодируются парой WCHAR (так называемые «суррогаты») и всем API-функциям передаётся не количество символов, а размер символьного массива в машинных словах.
В GNU/Linux тип wchar_t
имеет размер 32 бита.
В библиотеке ANSI C за широкие символы отвечают заголовочные файлы <wchar.h> и <wctype.h>.
В разделе не хватает ссылок на источники (см. рекомендации по поиску). |
Ссылки
[править | править код]В статье есть список источников, но в этом разделе не хватает сносок. |
Это заготовка статьи об информационных технологиях и вычислительной технике. Помогите Википедии, дополнив её. |